查看原文
其他

企业数据治理七把利剑

The following article is from 谈数据 Author 石秀峰

热文推荐:数据质量监控大厂案例


前言正所谓:“工欲善其事,必先利其器!”,一套好的数据治理工具,能让企业的数据治理工作事半功倍。数据治理本质是盘点数据资产、治理数据质量,实施数据全生命周期的管理,根据不同的项目特点,会用到不同的技术或工具。
更多优质内容请关注公众号 ”数据仓库与Python大数据


一般来说,数据治理产品或工具主要包含以下组件:数据模型管理、元数据管理、数据质量管理、数据标准管理、主数据管理、数据安全管理、数据服务平台


数据治理产品中的七个工具或组件,都各有自己的特点和使命,在企业的数据治理中都有着不同的功能侧重,但是解决问题的目标是一致的——提升数据质量。


这让我不由联想到的是那部经典的电影《七剑下天山》,数据治理的七个工具就如同电影中的七把利剑,它们的打造材料、工艺、对使用者的要求都各不相同,在执行任务中需要各尽其职,同时又需要紧密协同。想想看,数据治理中的七个工具,何尝不是这样呢?



  • 天瀑剑数据标准):一把双头剑,忽攻忽守,用剑者必须很专一,是一把表现“纪律”的剑。

  • 莫问剑数据安全):剑身是乌黑的,长兼富弹性,变化无穷,招式变幻难测。心法重剑略,有剑气,轻易不杀,使用者需智能与内涵。

  • 游龙剑元数据):无坚不摧,一剑既出,众剑称臣,是最高攻击的武器。

  • 青干剑主数据):奇钝无比,非极锋利,可抵挡天下最锋利的武器,可克制“游龙”,是最好防守兵器。

  • 竞星剑数据模型):短身,藏于衣服之内,在电光火石之间,出剑神速,迅雷不可目睹。

  • 日月剑数据质量):两把相连的子母剑,时而双剑,时而成一体,攻击范围可大可小。

  • 舍神剑数据服务):是一把开山辟石的大剑。使者攻势力大无穷,钝重有力,是一把求生的剑,代表重生,纯朴,恒心。


一、竞星剑:数据模型管理


数据模型管理工具犹如“竞星剑”,短身,藏于衣服之内,在电光火石之间,出剑神速,迅雷不可目睹。


在企业信息化建设过程中,数据模型“藏”于数据库底层,对业务人员和管理人员是无感的,所以往往被忽视。但是数据模型却是企业数据治理中最核心的一把利剑。


数据模型对上是承载数据业务需求的元数据,对下是数据标准管理的内容,同时,是数据质量指标和规则定义的起点,是主数据和参照数据设计的根本,是数据仓库和BI的核心,也是数据安全管控的对象。


数据模型管理平台从功能上,主要包括:可视化建模、模型版本管理、数据模型管理、数据模型查询、数据模型浏览、数据模型分析等。


1)可视化建模。提供的可视化的前台建模能力,支持企业级数据模型的构建,数据可视化建模一般支持Oracle、MySQL、SQL Server、HIVE、HBase等数据库类型,优秀的模型管理平台支持数据仓库或业务系统的正向建模,同时支持将企业现有系统数据模型反向采集。


2)模型版本管理。支持模型变更和版本的管理,支持版本的回溯,版本明细信息查询。


3)数据模型管理。支持模型导入功能,对于采用PowerDesigner、Erwin、Excle等模型设计工具设计的模型能够导入到模型管理平台中来,并提供模型的可视化修改、模型导出、模型删除等功能。


4)数据模型查询。支持数据模型查询,通过输入关键字可以查询到指定的数据模型。


5)数据模型浏览。支持数据模型全景视图,能够直观看到企业数据的分布地图,并支持通过模型下钻功能进行模型的逐级查询,直到查询的模型的最深层级的元数据。


6)数据模型分析。主要提供模型的对比分析功能,这种对比分析可以是两个不同模型之间也可以是统一模型的不同版本之间的对比分析。通过模型的对比分析,能够轻松找到模型之间的差异,支持由模型驱动的影响分析。


二、游龙剑:元数据管理


元数据管理工具犹如“游龙剑”,一剑既出,众剑称臣。



元数据管理统一管控分布在企业各个角落的数据资源,企业涉及的业务元数据、技术元数据、管理元数据都是其管理的范畴。


按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。元数据管理是企业数据治理的基础,把它比作“游龙剑”并不为过。


元数据管理平台从功能上,主要包括:元数据采集服务,应用开发支持服务,元数据访问服务、元数据管理服务和元数据分析服务。请参考:数据治理之元数据管理实践


1)元数据采集服务。元数据采集服务提供各类适配器满足以上各类元数据的采集,并将元数据整合处理后统一存储于中央元数据仓库,实现元数据的统一管理。这个过程中,数据采集适配器十分重要,元数据采集要能够适配各种DB、各类ETL、各类DW和Report产品,同时还需要适配各类结构化或半结构化数据源。


2)元数据管理服务。市场上主流的元数据管理产品,基本都包括元数据查询、元模型管理、元数据维护、元数据版本管理、元数据对比分析、元数据适配器、元数据同步管理、元数据生命周期管理等功能。


3)元数据访问服务。元数据访问服务是元数据管理软件提供的元数据访问的接口服务,一般支持REST或Webservice等接口协议。通过元数据访问服务支持企业元数据的共享,是企业数据治理的基础。


4)元数据分析服务。

  • 血缘分析:告诉你数据来自哪里,都经过了哪些加工。

  • 影响分析:告诉你数据都去了哪里,经过了哪些加工。

  • 冷热度分析:告诉你哪些数据是企业常用数据,哪些数据属于僵死数据。

  • 关联度分析:告诉你数据和其他数据的关系以及它们的关系是怎样建立的。

  • 数据资产地图:告诉你有哪些数据,在哪里可以找到这些数据,能用这些数据干什么。


三、日月剑:数据质量管理


数据质量管理工具犹如“日月剑”,是两把相连的子母剑,时而双剑,时而成一体,攻击范围可大可小。



数据质量管理工具在不同的数据治理项目中有时会被单独使用,有时配合元数据使用、有时又与主数据搭档。


在管理范围上,往往会根据项目的需求、客户的目标进行控制,可以是企业级的全域数据质量管理,也可以针对某一特定业务领域进行数据质量管理的实施。


数据质量管理工具从功能上,主要包括:数据质量指标管理、数据质量规则管理、数据质量评估任务、数据质量评估报告。请参考:聊聊大数据质量监控的那些事


1)数据质量指标管理。通过对不同业务规则的收集、分类、抽象和概括,定义数据质量维度,这里给出了六种,分别是:数据唯一性、数据一致性、数据准确性、数据关联性、数据完整性、数据及时性。质量指标反映了数据质量不同的规格标准,也体现了高层次的指标度量的特点。


2)数据治理规则管理。一个数据质量规则包含了数据的评估对象,评估指标、权重和期望值等。质量规则是由业务人员根据各检核类别对不同的业务实体提出的数据质量的衡量标准。它是各检核类别在不同业务实体上的具体体现。


3)数据质量检核任务。检核任务调度模块是数据质量平台的核心,通过执行检核方法生成相应的检核结果问题数据文件,检核结果问题数据能够反映出用户所关心的数据质量问题。


4)数据质量分析报告。数据质量报告提供了一个集中展示数据质量状况的窗口,相关人员可以对数据质量问题进行查询、统计、分析,找到引起数据质量问题的根因,并付诸行动,从源头上解决数据质量的根本问题,实现数据质量的闭环。


四、天瀑剑:数据标准管理


数据标准管理工具犹如“天瀑剑”,是一把双头剑,用剑者必须很专一,是一把表现“纪律”的剑。


数据标准从字面上理解就是数据既定的“规则”,这个规则一旦定义,就需要必须执行。数据标准化就是研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程。


从管理的对象上来看,数据标准主要包含三个方面的标准:


  • 数据模型标准、即元数据的标准化;

  • 主数据和参照数据标准;

  • 指标数据标准,如指标的统计维度、计算方式、分析规则等。


数据标准管理工具,从功能层面主要包括:数据标准编制、数据标准审批、数据标准发布、数据标准使用。请参考:美团 数据质量平台 设计与实践


1)数据标准编制。根据企业业务进行管控数据项的划分,确定数据项的名称、编码、类型、长度、业务含义、数据来源、质量规则、安全级别、域值范围等。数据标准可以参考国际、国家或行业标准的现行标准进行制定,也可以根据企业业务制定特定的企业级数据标准。


2)数据标准审查。对数据标准初稿进行审查,判断数据标准是否符合企业的应用和管理需求,是否符合企业数据战略要求。


3)数据标准发布。数据标准一经发布各部门、各业务系统都需要按相应的标准进行执行,对于遗留系统会存在一定的风险。标准发布的过程需要对现有应用系统、数据模型的影响进行评估,并做好相应的应对策略。


4)数据标准贯彻。把已定义的数据标准与业务系统、应用和服务进行映射,标明标准和现状的关系以及可能影响到的应用。该过程中,对于企业新建的系统应当直接应用定义好的数据标准,对于旧系统应对一般建议建了相应的数据映射关系,进行数据转换,逐步进行数据标准的落地。


五、青干剑:主数据管理


主数据管理工具犹如“青干剑”,奇钝无比,非常锋利,是最好防守兵器。



主数据是企业最基础、最核心的数据,企业的一切业务基本都是基于主数据来开展的,是企业最重要的数据资产。


如果大数据是一座矿山,主数据就是那矿山中的金子,通过主数据的解决各异构系统的数据不标准、不一致问题,保障业务连贯性和数据的一致性、完整性和准确性,提升业务线条之间的协同能力。


同时,高质量的主数据也为领导的管理决策提供了支撑。所以,主数据管理也是企业数据治理成为最核心部分。


主数据管理平台从功能上主要包括:主数据模型、主数据编码、主数据管理、主数据清洗、主数据质量、主数据集成等。


1)主数据模型。提供主数据的建模功能,管理主数据的逻辑模型和物理模型以及各类主数据模板。


2)主数据编码。编码功能是主数据产品的初级形态,也是主数据产品的核心能力,支持各种形式主数据的编码,提供数据编码申请、审批、集成等服务。


3)主数据管理。主要提供主数据的增删改查功能。


4)主数据清洗。主要包括主数据的采集、转换、清理、装载等功能。


5)主数据质量。主要提供主数据质量从质量问题发现到质量问题处理的闭环管理功能。


6)主数据集成。主要提供主数据采集和分发服务,完成与企业其他异构系统的对接。当然,谈到集成就不得不说的一个重要工具,ESB(企业服务总线),这个工具也是经常会与主数据产品进行配合在实现企业主数据治理的同时,解决企业异构系统的集成问题。关于数据集成我们下次单独再谈,此处不再赘述。


六、莫问剑:数据安全管理


数据安全管理工具犹如“莫问剑”剑身是乌黑的,长兼富弹性,招式变幻难测,重剑略,有剑气,轻易不杀,使用者需智能与内涵。



数据安全规则会随着不同行业、不同企业的需求不同而变换莫测,数据安全一般企业作为数据战略的重要组成。


“莫问剑”长兼富弹性,带有剑气,不易操作,需要使用者的智能与内涵。数据安全也一样,在企业数据治理中,数据安全一般作为是企业数据治理的一道“红线”,任何人、任何数据不可逾越。


但是数据安全也不能随意、轻易地使用,否则就会影响业务效率,安全和效率之间需要找到一个平衡点。


数据安全涵盖了操作系统安全、网络安全、数据库安全、软件应用安全等。


对于数据的安全治理,侧重点是对于数据使用过程的控制,使得数据安全合法的进行使用,所以管控的重点是在应用上。


从应用上,数据安全的主要功能包括:身份认证与访问控制、数据合规性申请、数据分级与授权、数据脱敏/脱敏、数据加密、安全审计等。


1)身份认证与访问控制。身份认证是为访问控制提供支撑,访问控制提供了不同身份用户访问不同信息资源提供了相应的安全策略。身份认证是在计算机及计算机网络系统中确认操作者身份的过程,确定用户是否具有对某种资源的访问和使用权限,防止攻击者假冒合法用户获得资源的访问权限,保证系统和数据的安全。常用身份认证的技术包括:电子签名(CA)、USB-key(智能卡)、静态口令,动态口令、短信密码、人脸识别、指纹识别、虹膜识别、声音识别等。


2)数据合规性申请。对于企业关键信息的创建和变更需要符合企业相关的数据管理流程,建立数据申请、审批制度,对新增的数据或变更的数据进行合法性审批。


3)数据的分级与授权。根据数据的来源、内容和用途对数据资产进行分类,根据数据的价值、敏感程度、影响范围进行敏感分级,建立敏感分级数据与用户角色的访问控制矩阵,对不同等级的数据分配给相应的用户角色实现分级授权。


4)数据脱敏。简单的数据脱敏技术就是给数据打个“马赛克”,脱敏的过程数据的含义保持不变、数据类型不变、数据的关系不变。


5)数据加密。数据加密技术是数据防窃取的一种安全防治技术,指将一个信息经过加密钥匙及加密函数转换,变成无意义的密文,而接收方则将此密文经过解密函数、解密钥匙还原成明文。


6)安全审计。数据安全审计是通过记录用户对数据的所有访问和操作记录日志,并通过日志的分类统计和分析,提供数据访问报表,支持对数据的检索和分析,支持对用户的违规访问和危险操作进行告警。


七、舍神剑:数据服务平台


数据服务平台犹如“舍身剑”:是一把开山辟石的大剑,钝重有力,是一把求生的剑,代表重生,纯朴,恒心。



数据服务平台是数据治理的能力输出平台,持续的数据服务能力输出,披荆斩棘,为前端的数据分析和数据应用提供支撑。


数据服务平台在互联网架构下一般会基于统一的API网关进行服务的统一接入,由统一网关对所有数据服务进行调度、管理、编排、适配,应适应企业内部的数据共享和企业外部的数据开放等需求。


数据服务平台主要包括服务能力输出和统一网关服务两大部分,一部分是输出数据服务能力,另一部分是通过统一的网关来管理这些能力。


1)能力输出。数据治理平台的主要输出的数据服务能力包括:数据查询服务、资源目录服务、主数据服务、数据标准查询服务、数据安全服务等,每一类数据服务都是由一组服务接口组成的。


数据服务能力也可以根据业务主题进行组织,形成主题服务。数据服务的量和质量也是考验一个数据治理项目实施的一项重要指标。


2)服务网关。严格意义上来说,服务网关也是一套独立的工具,核心功能包括:服务的编排、注册接入、流程控制、协议适配、安全防护等。


传统架构中一般会以ESB——企业服务总线,作为服务网关来使用。在互联网架构下,ESB这种中心化的架构对应高并发的前台应用无法支撑,所以目前一般采用API网关,即API Gateway技术来替代传统的ESB。API网关提供日志、安全、流量控制、熔断、负载均衡、鉴权等功能插件。


这些插件会随着企业业务应用规模等的变化进行不断的强化与调整,而不用频繁对网关层进行改动,确保网关层的稳定性。


八、传说中七剑合璧就能召唤神龙


在一个大型的数据治理项目中,不是一项技术或工具就能搞定的,需要根据企业的需求采用不同产品和工具的组合。


而当我们将以上企业数据治理的七把利剑的相关核心能力组合起来以后,就形成了一个完整的数据治理平台,而这个数据治理平台与当前流行的“数据中台”不谋而合。


这里,我们并不是因为数据中台的概念火,就将数据治理往中台靠,而事实上,任何一个数据中台,都离不开数据治理的各项能力。


一个完整的数据中台重点提供了数据的“采、管、存、用”四种能力,而数据治理工具就是提供了最核心的“管”数据的能力和一部分“采、存、用”数据的能力。


九、写在最后


数据治理的各个工具在企业数据治理过程中各司其职,发挥着不同的作用,当然,除了笔者以上列出的七个产品,在不同的项目可能还会用到企业的数据治理工具或技术,这里就不在一一罗列了。


一个企业的数据治理项目的成功实施和持续见效,产品和工具很重要,但绝对不能以工具论。


高瞻远瞩的数据战略,先进的数据治理架构,数据治理时机的把握,数据治理组织、文化和制度的保障以及建立长效的运营机制缺一不可!


而技术与工具只是支撑企业数据战略、数据标准落地的工具而已。





欢迎大家扫描下方二维码订阅「数据仓库与Python大数据」内容并推荐给更多数据方向的朋友,希望有更多机会和大家交流。


----  C  ----


欢迎加入数据技术交流群。进群方式:请加同学微信(微信号:iom1128),回复:数据,审核通过,会自动拉你进群。


推荐阅读


  1.   数据治理 | 元数据管理实践

  2.   面试系列 | 大数据、数仓大厂面试(二)

  3.   面试真经 | 大数据、数仓大厂面试(一)

  4. 漫谈系列 | 数仓第一篇NO.1 『基础架构』

  5. 漫谈系列 | 数仓第二篇NO.2 『数据模型』

  6. 漫谈系列 | 数仓第三篇NO.3 『数据处理』

  7. 漫谈系列 | 数仓第四篇NO.4 『数据应用』

  8. 漫谈系列 | 数仓第五篇NO.5 『数据质量』



觉得内容不错的话 请分享到朋友圈哦~
▼ 福利时刻 ▼ 


01. 后台回复「经典」,即可领取大数据数仓经典书籍。

02. 后台回复「中台」,即可领取大厂中台架构高清ppt。

03. 后台回复「加群」,或添加小助微信IDiom1128  拉您入群(备注方向:大数据|数仓|分析|Flink|资源|python|爬虫)或领取资料。

Q: 关于数据治理,你还想了解什么?

欢迎留言区与大家分享

觉得不错,请把这篇文章分享给你的朋友哦

入群请联系小助手:iom1128『紫霞仙子』

更多精彩,请戳"阅读原文"到"数仓之路"查看

 

 

       !关注不迷路~ 各种干货、资源定期分享 


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存